強化学習の技術として近年使用される多腕バンディット問題は、当たりが出る確率の異なる複数台のスロットマシンを回しながら、報酬を最大にするプレイ戦略を求める問題です。本実習では、多腕バンディット問題を解くアルゴリズムを用いて、トランプゲーム「大貧民」をプレイする人工知能(AI)プログラムを作成します。Read less